分析了网络机器人(Web Robot)的访问行为特点,发现Robot的访问序列一般不会形成具有链接关系的路径。在定义了用户事务的概念的基础上,提出了一个基于事务分析的检测算法。经实验验证,该算法可以有效地检测未知的和不遵守网络机器人排斥标准的Robot。
对电子商务网站的用户访问模式挖掘中数据预处理阶段所采用的技术做了全面的研究,主要包括源数据的采集方法以及数据清理、用户识别、会话识别、事务识别、会话子序列生成等所采用的技术。并给出了框架网页过滤、识别搜索引擎Robot产生的访问记录,以及生成用户会话语义序列的方法。